EXIT: Extraction itérative de la terminologie

نویسندگان

  • Mathieu Roche
  • Thomas Heitz
  • Oriane Matte-Tailliez
  • Yves Kodratoff
چکیده

Exemple : 1 ère itération : travail administratif 2 ème itération : responsabilité de travail-administratif À chaque itération, les collocations binaires (et ternaires pour les collocations prépositionnelles) sont sélectionnées avec une mesure statistique et l'ajout de paramètres [Roche et al., 2004]. Corpus étudiés :-Corpus de Ressources Humaines (société PerformanSe) – 3784 Ko (en français)-Corpus de CV (groupe VediorBis) – 2470 Ko (en français)-Corpus d'introductions d'articles sur la Fouille de Données – 369 Ko (en anglais)-Corpus de résumés d'articles sur la Biologie Moléculaire – 9424 Ko (en anglais) Figure représentant la courbe d'élévation (précision en fonction d'une proportion de collocations extraites) à partir des collocations de type Nom-Adjectif. Cette figure permet de comparer 5 mesures. statu quo faible penchant voeu pieux bâton rompu carte blanche sentier battu coudée franche support indirect Exemple de collocations extraites en utilisant l'information mutuelle au cube [Daille, 1994] for intérieur activité professionnelle supérieur hiérarchique sentier battu fil conducteur période actuelle intérêt général stabilité émotionnelle sélection sélection + + Corpus étiqueté avec ETIQ [Amrani et al., 2004] Collocations verbales Corpus brut

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

EXIT : Un système itératif pour l’extraction de la terminologie du domaine à partir de corpus spécialisés

The work presented in this paper is relative to the discovery of a significant terminology in specialized texts. Our approach, partly based on statistical methods extracts the terms in an iterative way. At first, the only terms looked for are binary. The binary terms detected during this first phase are included in the corpus, and the process is iteratively repeated in order to detect very long...

متن کامل

Extraction bilingue de termes médicaux dans un corpus parallèle anglais/français

Résumé. Le Catalogue et Index des Sites Médicaux Francophones (CISMeF) recense les principales ressources institutionnelles de santé en français. La description de ces ressources, puis leur accès par les utilisateurs, se fait grâce à la terminologie CISMeF, fondée sur le thésaurus américain Medical Subject Headings (MeSH). La version française du MeSH comprend tous les descripteurs MeSH, mais d...

متن کامل

Choix du taux d'élagage pour l'extraction de la terminologie. Une approche fondée sur les courbes ROC

Résumé. Le choix du taux d’élagage est crucial dans le but d’acquérir une terminologie de qualité à partir de corpus de spécialité. Cet article présente une étude expérimentale consistant à déterminer le taux d’élagage le plus adapté. Plusieurs mesures d’évaluation peuvent être utilisées pour déterminer ce taux tels que la précision, le rappel et le Fscore. Cette étude s’appuie sur une autre me...

متن کامل

Le terme et le concept : fondements d'une ontoterminologie

Résumé : La terminologie connaît depuis plusieurs années un tournant linguistique important. On s’intéresse aujourd’hui davantage aux mots et à leur utilisation en discours qu’à connaître les choses qu’ils peuvent dénoter. Si effectivement l’approche wüstérienne et l’approche normative sont difficilement applicables stricto sensu et que la terminologie a tout intérêt à s’approprier le signifié,...

متن کامل

Construction itérative d'un modèle de connaissance par l'exploitation de règles d'association

Résumé Nous nous intéressons à la construction itérative d’un modèle de la connaissance experte par l’exploitation de règles descriptives telles que les règles d’associations. Nous avons montré que, lorsqu’il est disponible, un modèle de type réseau bayésien facilite la présentation de règles d’association pertinentes. Nous étudions maintenant les possibilités pour l’expert d’annoter ces règles...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004